智能论文笔记

Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

Hayato Futami , Hirofumi Inaguma , Sei Ueno , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-08

连接派时间分类（CTC）的模型在自动语音识别（ASR）方面具有吸引力，因为它们的非自动性性质。为了利用仅文本数据，语言模型（LM）集成方法（例如重新纠正和浅融合）已被广泛用于CTC。但是，由于需要降低推理速度，因此他们失去了CTC的非自动性性本质。在这项研究中，我们提出了一种使用电话条件的蒙版LM（PC-MLM）的误差校正方法。在提出的方法中，掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后，PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM，以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型，因此该方法可以快速LM集成。在域适应设置中对自发日本（CSJ）和TED-LIUM2语料库进行的实验评估表明，我们所提出的方法在推理速度方面优于重新逆转和浅融合，并且在CSJ上的识别准确性方面。

translated by 谷歌翻译

Distilling the Knowledge of BERT for CTC-based ASR

Hayato Futami , Hirofumi Inaguma , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-05

Connectionist时间分类（CTC）的模型很有吸引力，因为它们在自动语音识别（ASR）中的快速推断。语言模型（LM）集成方法（例如浅融合和重新恢复）可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是，它们大大减慢了CTC的推论。在这项研究中，我们建议提炼基于CTC的ASR的BERT知识，从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识，并且在测试过程中不使用BERT，从而维持CTC的快速推断。与基于注意力的模型不同，基于CTC的模型做出了框架级预测，因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语（CSJ）和TED-LIUM2语料库的实验评估表明，我们的方法改善了基于CTC的ASR的性能，而无需推理速度成本。

translated by 谷歌翻译

Recipe Generation from Unsegmented Cooking Videos

Taichi Nishimura , Atsushi Hashimoto , Yoshitaka Ushiku , Hirotaka Kameko , Shinsuke Mori

分类：自然语言处理 | 计算机视觉

2022-09-21

本文从未分割的烹饪视频中解决了食谱生成，该任务要求代理（1）提取完成盘子时提取关键事件，以及（2）为提取的事件生成句子。我们的任务类似于密集的视频字幕（DVC），该字幕旨在彻底检测事件并为其生成句子。但是，与DVC不同，在食谱生成中，食谱故事意识至关重要，模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出，并观察到，尽管（1）几个事件可作为食谱故事采用，但（2）此类事件的生成句子并未基于视觉内容。基于此，我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标，我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法，用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外，我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明，所提出的方法优于最先进的DVC模型。我们还确认，通过以故事感知方式对食谱进行建模，提出的模型以正确的顺序输出适当数量的事件。

translated by 谷歌翻译

Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows

Keisuke Shirai , Atsushi Hashimoto , Taichi Nishimura , Hirotaka Kameko , Shuhei Kurita , Yoshitaka Ushiku , Shinsuke Mori

分类：自然语言处理 | 人工智能

2022-09-13

我们提出了一个名为“ Visual配方流”的新的多模式数据集，使我们能够学习每个烹饪动作的结果。数据集由对象状态变化和配方文本的工作流程组成。状态变化表示为图像对，而工作流则表示为食谱流图（R-FG）。图像对接地在R-FG中，该R-FG提供了交叉模式关系。使用我们的数据集，可以尝试从多模式常识推理和程序文本生成来尝试一系列应用程序。

translated by 谷歌翻译

Multi-modal Transformer Path Prediction for Autonomous Vehicle

Chia Hong Tseng , Jie Zhang , Min-Te Sun , Kazuya Sakai , Wei-Shinn Ku

分类：机器人 | 计算机视觉

2022-08-15

关于车辆路径预测的推理是自动驾驶系统安全运行的必不可少的问题。有许多用于路径预测的研究工作。但是，其中大多数不使用车道信息，也不基于变压器体系结构。通过利用从配备自动驾驶车辆的传感器收集的不同类型的数据，我们提出了一个名为多模式变压器路径预测（MTPP）的路径预测系统，该系统旨在预测目标试剂的长期未来轨迹。为了实现更准确的路径预测，在我们的模型中采用了变压器体系结构。为了更好地利用车道信息，目标试剂不太可能采用与目标试剂相反的车道，因此被过滤掉。另外，将连续的车道块组合在一起，以确保车道输入足够长以进行路径预测。进行了广泛的评估，以显示使用Nuscene（现实世界中的轨迹预测数据集）的拟议系统的功效。

translated by 谷歌翻译

Estimating Personal Model Parameters from Utterances in Model-based Reminiscence

Shoki Sakai , Kazuki Itabashi , Junya Morita

分类：人工智能

2022-08-15

回忆疗法是基于记忆的回忆，是心理保健。但是，该方法的有效性在个体之间有所不同。为了解决这个问题，有必要提供更多个性化的支持；因此，本研究采用了基于思想理性（ACT-R）的认知体系结构自适应控制的个人记忆回忆的计算模型。反映用户状态的ACT-R内存模型有望促进个人回忆。在这项研究中，我们提出了一种通过与内存模型的重复相互作用来估算用户内部状态的方法。该模型包含用户的LIFELOG，向用户展示了一个内存项（刺激），并根据调整模型的内部参数的刺激接收用户对刺激的响应。通过重复这些过程，模型的参数将反映用户的内部状态。为了确认所提出方法的可行性，我们在使用合并该模型的系统时分析了用户的话语。结果证实了该方法从用户的话语中估算模型的内存检索参数的能力。此外，该方法估计使用系统引起的用户情绪变化的能力得到了证实。这些结果支持估计人类内部状态的交互式方法的可行性，这最终将有助于诱导记忆回忆和情绪为我们的幸福感。

translated by 谷歌翻译

Training Process of Unsupervised Learning Architecture for Gravity Spy Dataset

Yusuke Sakai , Yousuke Itoh , Piljong Jung , Keiko Kokeyama , Chihiro Kozakai , Katsuko T. Nakahira , Shoichi Oshino , Yutaka Shikano , Hirotaka Takahashi , Takashi Uchiyama

分类： (统计)机器学习

2022-08-07

来自重力波检测器的数据中出现的瞬态噪声通常会引起问题，例如检测器的不稳定性以及重叠或模仿重力波信号。由于瞬态噪声被认为与环境和工具相关联，因此其分类将有助于理解其起源并改善探测器的性能。在先前的研究中，提出了用于使用时频2D图像（频谱图）进行瞬态噪声进行分类的体系结构，该架构使用了无监督的深度学习与变异自动编码器和不变信息集群的结合。提出的无监督学习结构应用于重力间谍数据集，该数据集由高级激光干涉仪重力波动台（Advanced Ligo）瞬态噪声与其相关元数据进行讨论，以讨论在线或离线数据分析的潜力。在这项研究的重点是重力间谍数据集中，研究并报告了先前研究的无监督学习结构的训练过程。

translated by 谷歌翻译